MoReBench: Evaluando el razonamiento moral en modelos de lenguaje
Descubre MoReBench: 1,000 escenarios morales para evaluar el razonamiento procedural y pluralista de los modelos de lenguaje.
Descubre MoReBench: 1,000 escenarios morales para evaluar el razonamiento procedural y pluralista de los modelos de lenguaje.
Descubre VALUEFLOW, el primer marco unificado para extraer, evaluar y controlar la intensidad de valores en LLMs. Mejora la alineación pluralista.
MLPM, moderador ligero basado en prototipos latentes multicapa, mejora la seguridad de LLMs sin sacrificar eficiencia. Ideal para despliegues personalizados.
Descubre cómo NeVA alinea valores en LLMs con edición neuronal, evitando fugas indeseadas. Control fino sin reentrenamiento.
RoleCDE es el primer benchmark que mide cómo los agentes de rol resuelven dilemas entre valores específicos y alineación. ¡Aprende a mitigar el desacople de roles!
Exploramos cómo los LLMs expresan valores mediante mecanismos intrínsecos e inducidos, y su rol en la alineación y seguridad.